❓Как использовать категориальные признаки в k-Means
Алгоритм k-Means плохо работает с категориальными признаками, потому что понятие среднего значения неприменимо к строковым значениям вроде «красный», «синий» или «зелёный».
🛠Что можно сделать
📍One-hot encoding — преобразуем каждую категорию в бинарный вектор. Это позволяет применить *k-Means*, но увеличивает размерность и может искажать расстояния. 📍Label encoding — простой способ, но порядок присвоенных чисел может ввести модель в заблуждение (например, «cat» = 0, «dog» = 1, «elephant» = 2). 📍Оба метода не гарантируют адекватную интерпретацию расстояний между категориями.
🔄Альтернатива
Вместо k-Means для категориальных или смешанных данных лучше использовать: 📍k-Modes — аналог k-Means, но для чисто категориальных признаков (использует моду вместо среднего). 📍 k-Prototypes — работает с числовыми и категориальными данными одновременно.
❓Как использовать категориальные признаки в k-Means
Алгоритм k-Means плохо работает с категориальными признаками, потому что понятие среднего значения неприменимо к строковым значениям вроде «красный», «синий» или «зелёный».
🛠Что можно сделать
📍One-hot encoding — преобразуем каждую категорию в бинарный вектор. Это позволяет применить *k-Means*, но увеличивает размерность и может искажать расстояния. 📍Label encoding — простой способ, но порядок присвоенных чисел может ввести модель в заблуждение (например, «cat» = 0, «dog» = 1, «elephant» = 2). 📍Оба метода не гарантируют адекватную интерпретацию расстояний между категориями.
🔄Альтернатива
Вместо k-Means для категориальных или смешанных данных лучше использовать: 📍k-Modes — аналог k-Means, но для чисто категориальных признаков (использует моду вместо среднего). 📍 k-Prototypes — работает с числовыми и категориальными данными одновременно.
The messaging service and social-media platform owes creditors roughly $700 million by the end of April, according to people briefed on the company’s plans and loan documents viewed by The Wall Street Journal. At the same time, Telegram Group Inc. must cover rising equipment and bandwidth expenses because of its rapid growth, despite going years without attempting to generate revenue.
Tata Power whose core business is to generate, transmit and distribute electricity has made no money to investors in the last one decade. That is a big blunder considering it is one of the largest power generation companies in the country. One of the reasons is the company's huge debt levels which stood at ₹43,559 crore at the end of March 2021 compared to the company’s market capitalisation of ₹44,447 crore.
Библиотека собеса по Data Science | вопросы с собеседований from pl